分层回归：解决嵌套复杂的地学问题

CooooooL 武大城市化研究室 2022-04-24

点击上面的蓝字关注我们哦！

科普入门

数据分析方法HLM

01 前言

相信大家应该都不陌生普通最小二乘回归（Ordinary Least Squares，OLS），今天，我们想在此基础上介绍一种新的数据分析方法---分层回归，用来解决嵌套复杂的地学问题。

分层回归是一种用于多层嵌套结构数据的线性统计方法，其主要贡献者之一的英国伦敦大学的Harvey Goldstein教授将其称为多层分析(Multilevel Analysis)，而美国密歇根大学的Stephen W. Raudenbush教授等人将其称为分层线性模型结构(Hierarchical Linear Modeling)。在本文中我们称其为多层线性模型，并用其缩写HLM代表。

做研究的小伙伴的可能常常遇到这个问题,若不考虑数据的可获性，研究应该选取怎样的尺度才是合适的？尤其是当数据集存在分层或嵌套时，传统的统计方法是否还能很好解释不同层面上的变量差异？

02 HLM方法简介

· 多层数据结构的普遍性

在社会研究中，很多研究问题都体现为多水平、多层的数据结构。其中最为典型的例子就是在教育研究中，学生嵌套于班级，而班级又嵌套于学校的现象，或可以简单的把学生看做成嵌套于学校。在此学生代表了数据的第一层，班级和学校分别代表数据的第二层。传统的线性模型，如方差分析和回归分析，只能对涉及一层数据的问题进行分析，而不能对多层数据进行综合分析，多层模型则提供了解决这些问题的统计方法。

另外一种类型的镶嵌数据模型则来自于纵向研究或重复测量研究。不同时间的观测数据形成数据结构的第一层，而被试之间的个体差异构成了第二层。这样就可以探索个体在其发展趋势或发展曲线上的差异。

· 参数估计方法

与进行两次回归的方法在概念上是相似的，但统计估计和验证方法不同。大多数线性回归分析依靠的是普通最小二乘估计方法进行估计，多层线性模型所使用的是收缩估计，比OLS进行“回归的回归”更加的稳定或精确。

· 样本要求

关于样本量的要求没有确定的答案，还要参考实验的目的。一般考虑统计推断正态分布的要求及变量与样本的比例：

①样本大小。与统计判断与假设检验有关。一般来说，样本量最少是30个。

②样本个数同样本量的比例。一般来说，这一比例要求为1:10。

在多层分析中，上述条件要分别在不同层次中考虑。高层样本量的要求比低层样本量的要求更高。

03 统计原理

1、普通最小二乘回归（Ordinary Least Squares，OLS)

OLS回归方程：

Y_i= β₀＋β_１Ｘ_ｉ＋γ_ｉ

其中：　β₀是截距，或者说是当X=0是Y的值；β_１是线性回归系数；γ_ｉ是残差，其假设为：①γ_ｉ服从正态分布，γ_ｉ~N(0,σ^２)；②γ_ｉ是相互独立的，即Cov(γ_ｉ，γｊ) = ０；③γ_ｉ的方差恒定，即Var(γ_ｉ) = σ^２,σ^２为一常数。

这些关于残差的假设意味着Y是从某个总体内随机取样的。但是，当数据存在镶嵌结构时，且某些第二层变量被认为对Y产生影响，即必然存在第二层单位间的方差,残差将不满足上述假设。在这种情况下，多层线性模型才是正确解决这一问题的统计模型。

2、多层线性模型的基本形式

HLM的基本形式包括三个公式：

Y_ij= β_0j＋β_１jＸ_ｉj＋γ_ｉj

β_0j= γ₀₀＋μ_0j

β₁_j= γ₁₀＋μ_1j

其中：下标 i 代表的是第一层的单元，如学生；下标 j 代表的是第一层的个体所隶属的第二层单位，如学校或班级；γ₀₀和γ₁₀分别是β_0j和β_１j的平均值，并且它们在第二层单位之间是恒定的，是β_0j和β_１j的固定成分；μ_0j和μ_1j分别是β_0j和β_１j的随机成分，它们代表第二层单位之间的变异。

由以上公式可以得到：

Y_ij= γ₀₀＋γ₁₀Ｘ_ｉj＋μ_0j＋μ_1jＸ_ｉj＋γ_ｉj

其中，μ_0j＋μ_1jＸ_ｉj＋γ_ｉj是残差项。

HLM不仅从第一层的残差γ_ｉj中分解出了μ_0j和μ_1j，并且满足了OLS关于残差的假设；还可以就第二层的变量与第一层的变量之间的相关提出一系列研究问题。

04 基本模型形式

1、零模型(The Null Model)

有时研究者只是感兴趣把方程分解为由个体差异造成的部分和组间差异造成的部分。在这种情况下，使用第一层和第二层都没有预测变量的零模型就够了，这种方法即方差成分分析(Variance Component Analysis)。

第一层方程：

Y_ij= β_0j＋γ_ｉj

其中, Var(γ_ｉ) = σ^２

第二层方程：

β_0j= γ₀₀＋μ_0j

其中, Var(μ_0j) = τ₀₀

要确定Y的总体变异种有多大程度是由于第二层或者组间差异造成的，就要计算一个跨级相关(Intra-Class Correlation)系数：

ρ = τ₀₀ /(τ₀₀+σ^２)

2、完整模型(The Full Model)

既包含了第一层的预测变量，也包含第二层的预测变量。这样就可以通过理论建构来说明或解释Y的总体变异是怎样受到第一层和第二层的因素影响。

最简单的完整模型只包含一个一层变量和一个二层预测变量：

第一层方程：

Y_ij= β_0j＋β_１jＸ_ｉj＋γ_ｉj

第二层方程：

β_0j= γ₀₀＋γ₀₁W_1j＋μ_0j，

β_1j= γ₁₀＋γ₁₁W_1j＋μ_1j

其中,

Var(μ_0j) = τ₀₀

Var(μ_1j) = τ₁₁

在零模型和完整模型之间，有一系列的模型可以用来估计不同的第一层和第二层的参数，研究者可以根据自己的研究目的和实际情况，通过向各层方程中添加不同的变量、设定不同的随机成分与固定成分来构建各种分析模型。其中常用的有随机效应回归模型和协方差模型。

3、协方差分析模型(ANCOVA Model)

第一层方程：

Y_ij= β_0j＋β_１j(Ｘ_ｉj- X_均)＋γ_ｉj

第二层方程：

β_0j= γ₀₀＋μ_0j

β_1j= γ₁₀＋γ₁₁W_1j＋μ_1j

4、随机效应回归模型(Random Effect Regression Model)

第一层方程：

Y_ij= β_0j＋β_１jＸ_ｉj＋γ_ｉj

第二层方程：

β_0j= γ₀₀＋μ_0j

β_1j= γ₁₀＋μ_1j

在研究中可以将以上模型结合使用，能够更好的说明或解释不同层面上的变量差异及其交互作用（如下表）。

	因变量	第一层测预变量	第二层预测变量	目的
零模型	√			方差成分分析
随机效应回归模型	√	√		寻找第一层截距和斜率在第二层单位上的变异
完整模型	√	√	√	分析两层预测变量对总体变异的影响与机制

5、发展模型

上述的大多模型也可以用于纵向研究、发展研究或追踪研究的模型建构。如在追踪模型中，不同时间的观察结果（第一层）嵌套于被观察的个体（第二层）。这时，对于第一层数据，就不能采用传统的回归模型来分析，因为传统回归模型描述的是一个结果与一系列预测变量之间的关系。而发展模型是把多次的观察结果作为时间的某种数学函数来建构模型，这时应该根据第一层数据的特点选择发展模型。

06 参考文献

[1] Su S, Zhou X, Wan C, et al. Land use changes to cash crop plantations: crop types, multilevel determinants and policy implications[J]. Land Use Policy, 2016, 50: 379-389.

谢谢你的耐心阅读哦，希望这篇略枯燥的干货能够给你提供一些些参考或帮助~

欢迎大家关注我们，一起学习一起交流

皮皮岛|Phi Phi Don

U need a blue sky holiday! :)

“占坑式辩护”，侵犯了谁？

bxrf的瓜

嗷嗷哭！三斤午夜痛哭，压力太大了！阿哲遭恶意举报，爆瓜内幕！

童锦程爆阿哲抖音年度！哦嫂猫猫抖音复出开播！北王示爱囧囧丸！

陈泽心疼阿哲，回应大舞台节奏！哲修辰杭州聚会！宇文泡1600万叫价青蛙哥！

分层回归：解决嵌套复杂的地学问题

您可能也对以下帖子感兴趣

“占坑式辩护”，侵犯了谁？

bxrf的瓜

嗷嗷哭！三斤午夜痛哭，压力太大了！阿哲遭恶意举报，爆瓜内幕！

童锦程爆阿哲抖音年度！哦嫂猫猫抖音复出开播！北王示爱囧囧丸！

陈泽心疼阿哲，回应大舞台节奏！哲修辰杭州聚会！宇文泡1600万叫价青蛙哥！

生成图片，分享到微信朋友圈

分层回归：解决嵌套复杂的地学问题

您可能也对以下帖子感兴趣